解决时间扩展的任务是大多数增强学习(RL)算法的挑战[ARXIV:1906.07343]。我们研究了RL代理商学会提出自然语言问题的能力,以了解其环境并在新颖,时间扩展的环境中实现更大的概括性能。我们通过赋予该代理商的能力向全知的甲骨文提出“是,不”问题来做到这一点。这使代理商可以获得有关手头任务的指导,同时限制了对新信息的访问。为了在时间扩展的任务的背景下研究这种自然语言问题的出现,我们首先在迷你网格环境中训练代理商。然后,我们将受过训练的代理转移到另一个更艰难的环境中。与无法提出问题的基线代理相比,我们观察到概括性能的显着提高。通过将其对自然语言在其环境中的理解,代理可以推理其环境的动态,以至于在新型环境中部署时可以提出新的,相关的问题。
translated by 谷歌翻译